AAAI 2020「自然语言处理(NLP)」【上海交大】 阅读理解(DCMN+ 模型)
喜欢我们,点击上方AINLPer,关注一下,极品干货即刻送达!
引言
DCMN+是年初论文作者们提出的 DCMN 增强模型,针对多项选择型机器阅读理解,以大规模预训练模型(如 BERT 等)作为前端编码器,在多个多项选择型机器阅读理解任务(如卡耐基梅隆大学的 RACE)上取得了最先进的水平,另外 DCMN 也适用于其他简单分类任务。
正文开始
1First Blood
TILE: DCMN+: Dual Co-Matching Network for Multi-choice Reading Comprehension
Contributor : 上海交通大学
Paper: https://arxiv.org/pdf/1908.11511.pdf
Code: None
文章摘要
DCMN+提出的 DCMN 增强模型, 与其它模型相比,其显著特征是双向匹配策略,其他现有模型的匹配策略都是单向的,比如在文章-问题(P-Q)建模时,现有技术只有问题(Q)在文章(P)上的映射匹配,没有文章(P)在问题(Q)上的映射匹配,而 DCMN 则集成了两个方向的匹配信息。此外,还集成了文章中句子筛选-从文章(P)中筛选出与问题相关的句子用于推理,答案选项交互-引入选项之间比较信息两种阅读策略,进一步提升了模型的性能。
本文介绍
本文主要聚焦多项选择型机器阅读理解,它的形式类似于英语考试中的阅读理解(选择题),给定一篇文章,通过阅读并理解文章(Passage),针对提出的问题(Question)从选项中选择正确的答案(Answers)。其中典型的数据集是卡内基-梅隆大学发起的大型深层阅读理解任务数据集 RACE(ReAding Comprehension dataset collected from English Examinations),它来源于中学考试题目的大规模阅读理解数据集,包含了大约 28000 个文章以及近 100000 个问题。除了 RACE,我们还在 SemEval-2018 Task11, ROCStories,MCTest 以及 COIN Task1 等类似多项选择型数据集上测试了我们的模型。下面是一个典型的多项选择型机器阅读理解的例子。
模型介绍
本文提出的 DCMN+主要包含三个模块:1)文章中句子筛选,从文章(Passage)中筛选出与问题相关的句子用于推理;2)答案选项交互,引入选项之间比较信息;3)双向匹配策略,充分利用 Passage,Question 与 Answers 之间的交互信息,作对称双向匹配。
编码器介绍:本文直接以预训练完的语言模型作为前端编码器,例如 BERT 以及 XLNet,分别编码 Passage,Question 及 Answers。
文章句子选择:为从文章中选择出与问题最相关的句子,我们分别计算了文章中每个句子与问题-选项对的相似度,选出最为相关的 K(超参数)个句子,输入到模型的以后部分作为推理依据。具体计算句子间相似度的方式有两种:余弦距离与双线性距离。
余弦距离:逐个计算文章中句子与问题-选项对中单词间的距离,取其平均值作为相似度分数:
双线性距离:通过计算文章句子与问题选项对的双线性匹配分数,然后通过线性降维来得到最后的分数:
答案选项交互(Answer Option Interaction):通过引入答案选项之间的比较信息,使得每个答案融入了相对于其他答案的比较信息,从而每个答案选项不在是孤立的,具体计算方式是引入每对选项之间的双线性比较信息,最后使用门控机制与原始的选项信息融合。
双向匹配策略(Bidirectional Matching):计算 Passage-Question-Answers 三元组中所有的两两二元组的双向匹配信息,即 P-Q,P-A,Q-A。接下来以 Q-A 之间的匹配方式作为说明:问题及答案选项分别被编码为 H^q 以及 H^a,则 Q-A 间的双向匹配表示 M^qa 可以用以下方式计算:
目标函数:得到文章,问题,答案选项之间双向匹配分别表示如下:
之后,我们把它们串联起来过一层全连接线性层去预测最后的答案,如果 Ak 是正确的答案选项,Loss 可以计算如下:
我们在各个多项选择数据集上均取得了最先进的成绩,包括 RACE,SemEval-2018 Task11, ROCStories,MCTest 以及 COIN Task1。对比结果下图所示。
收藏!「自然语言处理(NLP)」AINLPer 大 盘 点 !!
收藏!「自然语言处理(NLP)」全球学术界”巨佬“信息大盘点(一)!
论文阅读
长按识别下方二维码,关注我们吧(づ ̄3 ̄)❤~
资料整理实属不易,点个【在看】再走吧~~